【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据 您所在的位置:网站首页 jupyter notebook可以爬虫吗 【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

2023-06-05 04:40| 来源: 网络整理| 查看: 265

一、背景介绍

您好,我是@马哥python说 ,一枚10年程序猿。

自从2023.3月以来,"淄博烧烤"现象持续占领热搜流量,体现了后疫情时代众多网友对人间烟火气的美好向往,本现象级事件存在一定的数据分析实践意义。

我用Python爬取并分析了众多网友的评论,并得出一系列分析结论。

二、爬虫代码 2.1 展示爬取结果

首先,看下部分爬取数据: 爬取结果 爬取字段含:视频链接、评论页码、评论作者、评论时间、IP属地、点赞数、评论内容。

2.2 爬虫代码讲解

爬虫部分不作讲解。

三、可视化代码

为了方便看效果,以下代码采用jupyter notebook进行演示。

3.1 读取数据

用read_csv读取刚才爬取的评论数据:

df = pd.read_csv('淄博烧烤_评论数据.csv')

查看前3行及数据形状:

print(df.head(3)) print(df.shape) 3.2 数据清洗

处理空值及重复值: 数据清洗

3.3 可视化 3.3.1 IP属地分析-柱形图

柱形图

结论:从柱形图来看,山东位居首位,说明淄博烧烤也受到本地人大力支持,其次是四川、广东等地讨论热度最高。

3.3.2 评论时间分析-折线图

折线图 结论:从折线图来看,4月26日左右达到讨论热度顶峰,其次是5月1号即五一劳动节假期第一天,大量网友的"进淄赶烤"也制造了新的讨论热度。

3.3.3、点赞数分布-箱线图

由于点赞数大部分为0或个位数情况,个别点赞数到达成千上万,箱线图展示效果不佳,因此,仅提取点赞数



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有